Transição Além da Prompting Geral

Otimização por meio de Fine-Tuning e Arquiteturas Especializadas

1. Além do Prompt

Embora o "Few-Shot" seja um ponto de partida poderoso, escalar soluções de IA muitas vezes exige avançar para Fine-Tuning Supervisionado. Esse processo incorpora conhecimento ou comportamentos específicos diretamente nos pesos do modelo.

A Decisão: Você só deve realizar fine-tuning quando as melhorias na qualidade das respostas e a redução nos custos de tokens superarem significativamente os esforços computacionais e de preparação de dados necessários.

$Custo = Tokens \times Taxa$

2. A Revolução dos Pequenos Modelos de Linguagem (SLMs)

Modelos de Linguagem Pequenos (SLMs) são variantes altamente eficientes e reduzidas dos seus grandes equivalentes (por exemplo, Phi-3.5, Mistral Small). São treinados em dados altamente curados e de alta qualidade.

Compromissos: Os SLMs oferecem latência significativamente menor e permitem implantação em borda (executando localmente em dispositivos), mas sacrificam a inteligência ampla e generalizada semelhante à humana encontrada em grandes LLMs.

3. Arquiteturas Especializadas

Mistura de Especialistas (MoE): Uma técnica que escala o tamanho total do modelo mantendo eficiência computacional durante a inferência. Apenas um subconjunto de "especialistas" é ativado para cada token dado (por exemplo, Phi-3.5-MoE).
Multimodalidade: Arquiteturas projetadas para processar texto, imagens e, às vezes, áudio simultaneamente, expandindo os usos além da geração de texto (por exemplo, Llama 3.2).

A Hierarquia de Eficiência

Tente sempre Engenharia de Prompt primeiro. Se falhar, implemente RAG (Geração com Recuperação Aprimorada). Use Fine-Tuning apenas como o último passo avançado de otimização.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.